The Pile
https://pile.eleuther.ai/
The Pileは、825GiBの多様な
オープンソース
の言語モデリング
データセット
で、22の小規模で高品質なデータセットが組み合わされて構成されています。